Telegram Group & Telegram Channel
👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6548
Create:
Last Update:

👌 Как найти и избежать утечек данных: пошаговое руководство

Утечки данных — одна из самых распространённых и коварных ошибок в построении моделей машинного обучения.

Вот как шаг за шагом выявить и предотвратить утечки в проектах.

1️⃣ Понимайте, что такое утечка данных

Утечка — когда модель получает данные из будущего или из «ответов», которых не должно быть во время обучения. Вот основные типы:

Целевая утечка (Target Leakage): признаки напрямую или косвенно содержат информацию о целевой переменной.
📝Пример: использовать «сумму страховых выплат» при прогнозе повторной госпитализации.

Утечка после события (Post-Event Leakage): признаки формируются на основе данных, которые появляются после момента предсказания.
📝Пример: использовать данные после завершения полёта для прогнозирования аварии во время полёта.

Утечка при разбиении данных (Train-Test Leakage): когда информация из тестовой выборки просачивается в тренировочную. Включает:
— анализ всех данных до разделения (корреляции, масштабирование)
— дубликаты и пересечения между train и test
— нарушение временного порядка для временных данных
— неправильное кросс-валидационное разделение

Утечка по идентификаторам (Entity Leakage): когда уникальные ID встречаются в обеих выборках, и модель запоминает их, а не закономерности.
📝 Пример: номер самолёта в train и test.

2️⃣ Внимательно выбирайте признаки

Удаляйте признаки, которые содержат информацию, недоступную на момент предсказания (например, отчёты после события).
Будьте осторожны с ID и уникальными идентификаторами — модель может просто «запомнить» их.

3️⃣ Соблюдайте правильный порядок работы с данными

Сначала разделяйте данные на тренировочные и тестовые, до любых вычислений и преобразований.
Для временных данных обязательно сохраняйте хронологический порядок, чтобы не давать модели информацию из будущего.
Избегайте дублирования и пересечений между train и test.

4️⃣ Правильно стройте пайплайны

Масштабирование, кодирование, уменьшение размерности (PCA и др.) обучайте только на тренировочных данных.
В кросс-валидации трансформации должны выполняться внутри каждого фолда отдельно.

5️⃣ Анализируйте только тренировочные данные

Корреляции, статистики и подбор параметров делайте только на тренировочных данных.
Не смотрите на тест, пока не завершите обучение и отладку.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6548

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

China’s stock markets are some of the largest in the world, with total market capitalization reaching RMB 79 trillion (US$12.2 trillion) in 2020. China’s stock markets are seen as a crucial tool for driving economic growth, in particular for financing the country’s rapidly growing high-tech sectors.Although traditionally closed off to overseas investors, China’s financial markets have gradually been loosening restrictions over the past couple of decades. At the same time, reforms have sought to make it easier for Chinese companies to list on onshore stock exchanges, and new programs have been launched in attempts to lure some of China’s most coveted overseas-listed companies back to the country.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA